AudioLDM 2
https://audioldm.github.io/audioldm2/Project
TTS、text2audio、text2musicにまたがる汎用的なフレームワークのためにaudio languageという新しい概念を導入
audio languageは音声信号の周波数領域と時間領域の両方を考慮したものであり、音声信号の特徴や構造をよく捉えている
https://gyazo.com/91a32e43c8a0b65f0ac884a7262db9a5
GPT-2を使いテキストをaudio languageに変換する
latent diffusion Modelを用いてaudio languageから音へ変換する
#AudioLDM